揭秘!三种机器学习算法如何助我斩获中科院Top期刊8.8高分!
大家好,我是雪梨~~
📢 注意!一项最新的研究揭示了子宫内膜癌(EC)的新发现,并通过机器学习算法为精准治疗提供了新的方向。EC作为女性生殖系统中第二常见的恶性肿瘤,以其基因组异质性而备受关注。然而,我们对其代谢特征仍知之甚少。而现在,通过全面的多组学分析,研究人员取得了令人振奋的突破!
研究团队利用来自多个数据集的RNA-seq数据,包括癌症基因组图谱(TCGA)、癌症细胞系百科全书(CCLE)和Gene Expression Omnibus(GEO)数据集。此外,还利用了临床肿瘤蛋白质组学分析联盟(CPTAC)提供的蛋白质组学数据以及CCLE的代谢组学数据。这些研究数据为我们深入探讨子宫内膜癌的代谢功能障碍提供了宝贵依据,同时也为发展精准治疗提供了有用的分子靶点。
通过无监督共识聚类的方法,研究人员将EC患者分为三个基于代谢途径的亚组,即代谢表型亚组(MPS)。令人惊讶的是,这些MPS亚组在临床预后、转录组和基因组改变、免疫微环境状态以及化疗敏感性模式方面显示出差异。特别值得注意的是,MPS2亚组对免疫疗法的反应更好。
最后,研究团队采用了三种机器学习算法(LASSO、随机森林和逐步多元回归)来开发基于代谢分子的预后基因特征。通过这一研究成果,作者成功构建了一个包含13个关键基因的分类器,可用于预测患者的MPS亚型,为临床提供了更加简便、实用的方法。
这种基于代谢的分类系统不仅可以加强对预后的预测,还能为子宫内膜癌的免疫疗法和代谢靶向疗法的临床策略提供指导。
欢迎联系我,让我们一起为您在生物信息学和机器学习领域的创新解决方案提供专业支持。让我们共同放大科学的影响力!🧬💻🌟
接下来,我们来一起看看文献吧!
文献背景
Metabolism pathway-based subtyping in endometrial cancer: An integrated study by multi-omics analysis and machine learning algorithm
基于代谢通路的子分型在子宫内膜癌中的应用:多组学分析和机器学习算法的综合研究
期刊:Molecular Therapy Nucleic Acids
IF:8.8(2023年)
文献背景
技术路线
1、数据收集和预处理:
从TCGA、GEO和CPTAC等数据库收集子宫内膜癌患者多组学数据,包括基因组、转录组和蛋白组数据。使用R包 caret对FPKM格式的RNAseq数据进行log2转换以及标准化。对CTPAC蛋白质组学数据中的相对蛋白质丰度进行log2转换以及标准化。
2、功能聚类:
1)代谢通路的富集分析:使用KEGG数据库中的84个代谢通路基因集,利用GSVA方法计算每个样本的代谢途径富集评分。
2)聚类分析:对代谢通路富集评分进行无监督共识聚类,将患者分为3个代谢途径相关的亚群(MPS)。
3、临床意义(靠):
1)分析MPS亚群在临床特征、基因组特征、免疫微环境等方面的差异。
2)代谢相关预后模型构建(靠):a.利用机器学习算法构建基于代谢相关基因的预后模型,通过交叉验证选择最佳特征基因,建立metagene预后风险模型。b.代谢相关预后模型验证:通过生存曲线、ROC曲线等方法验证模型的预后预测效果,并探讨模型在免疫治疗反应预测等方面的临床应用价值。
结果
Figure1
图1展示了子宫内膜癌与正常组织的转录组学比较,包括 PCA 图比较正常与肿瘤组织,以及 GSEA 结果显示糖酵解/糖异生和叶酸生物合成通路的显著上调。
A. PCA 图展示了TCGA数据集中正常子宫内膜组织和子宫内膜癌组织之间的代谢基因表达差异。结果显示两种组织具有不同的代谢转录组特征。
B. PCA 图展示了GSE17025数据集中正常子宫内膜组织和子宫内膜癌组织之间的代谢基因表达差异。同样,两种组织显示出不同的代谢转录组特征。
C. 图表展示了在TCGA、GSE106191和GSE17025数据集中,子宫内膜癌样本相对于正常样本上调的共同代谢途径。特别是糖酵解/糖异生和叶酸生物合成途径在三个数据集中都显示出一致的上调。
D. PCA 图展示了CPTAC子宫内膜癌蛋白质组学数据集中正常子宫内膜组织和子宫内膜癌组织之间的代谢基因表达差异。结果表明,两种组织在蛋白水平上具有不同的代谢特征。
E. 图表展示了CPTAC数据集中肿瘤样本相对于正常样本上调的代谢途径。特别是氧化磷酸化和糖基生物合成途径在肿瘤样本中显著上调。
Figure2
图2: 展示了基于代谢途径的子宫内膜癌分型,包括基于共识聚类将患者分为3个代谢途径相关的亚群,并比较了不同亚群的生存曲线和临床病理特征。
A. 图表展示了基于84条代谢途径的GSVA评分对子宫内膜癌患者进行无监督共识聚类,并确定了3个代谢途径相关的分子亚组(MPS)。
B. PCA 图证实了3个MPS亚组在代谢特征上的差异。
C. 热图展示了3个MPS亚组在84条KEGG代谢途径上的标准化富集评分。MPS1亚组表现出“热”的代谢特征,而MPS3亚组表现出“冷”的代谢特征。
D. KM生存曲线比较了3个MPS亚组的总生存期(OS)和无病生存期(DFS)。结果显示,MPS3亚组的预后最差。
E. 条形图比较了3个MPS亚组中子宫内膜癌的组织学类型、分级、FIGO分期等临床特征的分布。MPS3亚组中晚期和高级别子宫内膜癌的比例较高。
F. 条形图比较了3个MPS亚组中子宫内膜癌的TCGA分子亚型的分布。MPS3亚组中CN-H型的比例较高。
G. KM生存曲线比较了非特异性分子亚型(NSMP)患者在不同MPS亚组中的预后。MPS1亚组中NSMP患者的预后较差。
Figure3
图3: 展示了不同代谢途径相关亚群的转录组特征,包括每个亚群富集的代谢途径和关键代谢酶的表达。
A-C. 圆环图展示了每个MPS亚组中显著变化的代谢相关基因以及富集的代谢途径。MPS1亚组富集了戊糖和葡萄糖酸互变、精氨酸和脯氨酸代谢等途径;MPS2亚组富集了亚油酸代谢、花生四烯酸代谢等途径;而MPS3亚组则下调了视黄醇代谢、甾体激素生物合成等途径。
D. GSEA图展示了MPS1和MPS3亚组中显著变化的致癌信号通路。MPS1和MPS3亚组中细胞周期相关通路被激活,而MPS2亚组中这些通路则被抑制。
E-F. 图表比较了每个MPS亚组的上皮间质转化(EMT)评分和关键EMT相关基因的表达水平。MPS1亚组的EMT评分和关键基因表达水平相对较低。
G. 热图展示了代谢途径富集评分与关键致癌信号通路之间的相关性。结果显示,多个代谢途径与关键信号通路相关。
Figure4
图4: 展示了不同代谢途径相关亚群的基因组特征,包括比较不同亚群的基因突变频率和拷贝数变异。
A. 条形图比较了3个MPS亚组中10条经典致癌通路的突变频率。MPS1亚组中PI3K、NRF2、TGF-b、MYC等通路的突变频率较高,而MPS3亚组中TP53通路的突变频率最高。
B. 桑基图展示了每个MPS亚组中差异突变的代谢相关基因及其突变频率。MPS1亚组中PI3K成员和赖氨酸降解途径基因的突变频率较高。
C. 条形图比较了3个MPS亚组的同源重组缺陷(HRD)评分。MPS3亚组的HRD评分较高,表明其可能对PARP抑制剂等药物更敏感。
D-F. 图表展示了3个MPS亚组的染色体拷贝数变异(CNV)图谱。MPS1亚组在3q22、1q21.3等区域存在扩增,而MPS3亚组在8q24.21、1q22等区域存在扩增。
G-I. 点图展示了3个MPS亚组中显著扩增区域的基因在KEGG通路中的富集情况。MPS1亚组中扩增区域基因主要参与氮代谢和糖胺聚糖生物合成等途径,而MPS3亚组中扩增区域基因主要参与核糖体、TGF-b信号传导等途径。
Figure5
图5: 展示了不同代谢途径相关亚群的免疫微环境,包括比较不同亚群的免疫细胞浸润水平。
A. 条形图比较了3个MPS亚组中22种免疫细胞的浸润水平。MPS2亚组中CD4记忆T细胞和调节性T细胞的浸润水平较高,而MPS1亚组中M2巨噬细胞和M1巨噬细胞的浸润水平较高。
B. 条形图比较了3个MPS亚组中抗肿瘤和促肿瘤免疫细胞的总富集评分。MPS2亚组中抗肿瘤免疫细胞的富集评分较高,而MPS1亚组中促肿瘤免疫细胞的富集评分较高。
C-E. 条形图比较了3个MPS亚组中的免疫功能障碍评分、免疫排除评分和TIDE评分。MPS2亚组的免疫功能障碍评分较高,而MPS1亚组的TIDE评分较低。
F. 条形图比较了3个MPS亚组中的肿瘤突变负担(TMB)水平。MPS1亚组的TMB水平最高。
G. 条形图比较了3个MPS亚组中免疫检查点分子的表达水平。MPS2亚组中CTLA4和PD-L1的表达水平较高,而MPS3亚组中IFNGR1和LAG3的表达水平较高。
H. 饼图展示了3个MPS亚组对免疫治疗的预测响应率。MPS2亚组的预测响应率最高。
Figure6
图6: 展示了不同代谢途径相关亚群的化疗敏感性,包括预测每个亚群对特定药物的敏感性。
A. 图表概述了在TCGA数据集中基于MPS亚型开发特异性治疗药物的策略。
B. 条形图比较了不同MPS亚组对PRISM和CTRP数据库预测的药物敏感性的差异。MPS1和MPS3亚组对部分药物表现出更高的敏感性。
C. 条形图比较了不同MPS亚组中与多西他赛敏感性相关的基因的表达水平。MPS3亚组中与多西他赛耐药相关的基因表达水平较高。
D. PCA图展示了基于转录组特征的子宫内膜癌细胞系的MPS亚型。细胞系中的MPS亚型与患者中的亚型一致。
E. 火山图展示了细胞系MPS亚组之间的差异代谢物。MPS1亚组中甘露醇、3-甲基柠檬酸等代谢物水平较高,而MPS3亚组中鸟氨酸、3-甲基己酸等代谢物水平较低。
F. GSEA图展示了MPS3细胞系中激活的信号通路。MPS3细胞系中EMT和Hedgehog等通路被激活。
G. 条形图比较了细胞系MPS亚组对PRISM数据库预测的药物敏感性的差异。MPS1和MPS3亚组对部分药物表现出更高的敏感性。
Figure7
图7: 展示了基于机器学习算法构建的代谢相关预后风险模型,包括利用 LASSO、随机森林等算法构建预后预测模型。
Figure8
图8: 展示了代谢相关预后模型的临床意义,包括不同风险分组的免疫评分、免疫治疗响应率比较。
讨论
多组学分析发现子宫内膜癌具有显著的代谢重编程特征,包括糖酵解/糖异生和氧化磷酸化等代谢途径的激活。这为后续基于代谢途径的分子分型奠定了基础。
基于84条代谢途径的无监督共识聚类,将子宫内膜癌患者分为3个代谢途径相关的分子亚组(MPS)。这些亚组在临床预后、基因组改变、代谢特征、免疫微环境以及对治疗的敏感性等方面存在明显差异。
不同MPS亚组具有独特的基因组改变和代谢特征。例如,MPS1亚组PI3K通路的突变频率较高,而MPS3亚组TP53通路的突变频率较高。这些特征为未来的靶向治疗提供了依据。
MPS分类系统对指导临床治疗具有重要意义。不同亚组对免疫治疗的敏感性不同,MPS2亚组可能从免疫治疗中获益最多。此外,MPS分类系统有助于识别对特定化疗药物敏感的亚组。
利用机器学习算法建立了一个基于代谢相关基因的预后预测模型。该模型有助于对患者进行风险分层,并为临床决策提供支持。
MPS分类系统揭示了子宫内膜癌的代谢异质性,为精准治疗提供了新的视角。然而,该系统仍需进一步验证其临床应用价值。
总结
这篇文章主要通过对子宫内膜癌的多组学分析,提出了基于代谢途径的分子分型方法,并进行了以下主要工作和发现:
在转录组水平和蛋白质组水平上证实了子宫内膜癌存在代谢重编程现象,尤其是在糖酵解/糖异生和氧化磷酸化等通路。
基于84条代谢途径的富集评分,对子宫内膜癌患者进行了无监督共识聚类,将其分为3个代谢途径相关的分子亚组(MPS)。
这些亚组表现出不同的临床特征、基因组特征、代谢特征和免疫微环境。
MPS1亚组表现出代谢活跃状态,支持大分子合成;MPS2亚组表现出特异性脂质代谢和氨基酸代谢通路的上调;而MPS3亚组表现出相对“冷”的代谢特征。
MPS3亚组与最差的预后相关,具有高级别和晚期子宫内膜癌的比例较高,基因组不稳定程度也较高。MPS1亚组与较高的肿瘤突变负担相关,可能对免疫治疗更敏感。
不同MPS亚组对化疗药物表现出不同的敏感性。基于代谢途径分型,可以预测患者对特定化疗药物的敏感性。
作者还开发了基于代谢基因的预后预测模型,可以区分高危和低危患者,为临床治疗提供重要参考。
综上所述,该研究揭示了子宫内膜癌的代谢异质性,为临床精准治疗提供了重要参考,具有重要的临床转化价值。
想要高效发文的朋友们快来投奔挑圈联靠的站姐——雪球老师吧!跟着大部队走,这是生信发高分的最快途径了~
下方二维码扫了之后你将有机会收看最新的直播,主题为:“如何用生信申请你的第一个课题”。还有其他相关学术领域最新动态哦~
另外,现在添加雪球老师微信,回复表型基因还可以领取雪球老师精心整理的热门表型相关基因列表干货~